Text copied to clipboard!

Título

Text copied to clipboard!

Engenheiro de Confiabilidade de Sites

Descrição

Text copied to clipboard!
Estamos à procura de um Engenheiro de Confiabilidade de Sites altamente qualificado para se juntar à nossa equipe de tecnologia. Este profissional será responsável por garantir que nossos sistemas e serviços online sejam altamente disponíveis, escaláveis e resilientes. O candidato ideal terá uma sólida experiência em engenharia de software, operações de sistemas e práticas de DevOps, com foco em automação, monitoramento e resposta a incidentes. Como Engenheiro de Confiabilidade de Sites, você trabalhará em estreita colaboração com equipes de desenvolvimento, operações e segurança para projetar e implementar soluções que melhorem a confiabilidade e o desempenho de nossos serviços. Você será responsável por identificar pontos de falha, implementar práticas de engenharia de confiabilidade e liderar iniciativas de melhoria contínua. Suas responsabilidades incluirão a criação e manutenção de ferramentas de monitoramento, a definição de indicadores de nível de serviço (SLIs) e objetivos de nível de serviço (SLOs), além de participar de análises pós-incidente para garantir que os problemas não se repitam. Você também atuará como um defensor da cultura de confiabilidade dentro da organização, promovendo boas práticas e colaborando com outras equipes para alcançar metas comuns. Este papel exige habilidades técnicas avançadas, capacidade de resolver problemas complexos sob pressão e uma mentalidade proativa. Se você é apaixonado por sistemas distribuídos, automação e melhoria contínua, esta é a oportunidade ideal para você.

Responsabilidades

Text copied to clipboard!
  • Garantir a alta disponibilidade e desempenho dos serviços online
  • Desenvolver e manter ferramentas de monitoramento e alerta
  • Definir e acompanhar SLIs e SLOs
  • Colaborar com equipes de desenvolvimento e operações
  • Automatizar processos operacionais e de implantação
  • Participar de análises pós-incidente e implementar ações corretivas
  • Melhorar continuamente a confiabilidade dos sistemas
  • Documentar processos e práticas recomendadas
  • Conduzir testes de resiliência e recuperação
  • Promover a cultura de confiabilidade na organização

Requisitos

Text copied to clipboard!
  • Formação em Ciência da Computação, Engenharia ou área relacionada
  • Experiência com sistemas distribuídos e em larga escala
  • Conhecimento em linguagens como Python, Go ou Java
  • Experiência com ferramentas de monitoramento como Prometheus, Grafana ou Datadog
  • Familiaridade com práticas de DevOps e CI/CD
  • Conhecimento em containers e orquestração (Docker, Kubernetes)
  • Capacidade de análise e resolução de problemas complexos
  • Experiência com gestão de incidentes e resposta a falhas
  • Boa comunicação e trabalho em equipe
  • Inglês técnico para leitura e escrita

Perguntas potenciais de entrevista

Text copied to clipboard!
  • Você possui experiência com sistemas distribuídos em produção?
  • Quais ferramentas de monitoramento você já utilizou?
  • Como você define e acompanha SLIs e SLOs?
  • Descreva uma situação em que você resolveu um incidente crítico.
  • Você tem experiência com automação de processos operacionais?
  • Como você promove a cultura de confiabilidade em uma equipe?
  • Quais linguagens de programação você domina?
  • Você já trabalhou com Kubernetes ou outras ferramentas de orquestração?
  • Como você lida com situações de alta pressão?
  • Você tem experiência com práticas de CI/CD?